[Day6]抵霸閣-大數據下的ETL工具

2022 iThome 鐵人賽

DAY 6

Software Development

如果可以，我想用30天的時間打造一間抵霸閣系列第 6 篇

14th鐵人賽

rainybee

2022-09-21 22:48:41

988 瀏覽

分享至

由於ETL算是我主要的工作內容之一
且在大數據的時代下ETL也是個非常實用的工具
因此今天來稍微介紹什麼是ETL
首先簡單名詞解釋為
Extract(萃取)：將雜亂的資料來源提取自己所需要的部分
Transform(轉置)：將不完整或者重複的資料甚至是錯誤的數據做適當地清理，像是統一資料的標準
Load(載入)：將處理完的資料寫進資料庫
以上的解釋有點兒抽象
大致上可以理解成為了讓資料可以被更有效率地使用
因此需要透過ETL這項工具幫忙將凌亂的數據整理成有用的資訊
而當設計好ETL的架構後便可以透過排程轉檔來自動化整個資料清洗的流程
便於減少例行性工作的人力

不過其中需要特別注意的是由於在資料清洗這個步驟非常繁瑣
就像是統計中遇到離群值的時候會很頭痛
若是此筆資料是真實且正常的數據時不可任意刪除
但卻又大幅影響結果時
就必須花時間去確認各種有問題的資料(尤其通常資料量十分龐大
還有像是某些重要的欄位資料卻遺漏了
那也需要做判斷有什麼方法可以填補
或是該如何處理
這個部分又是一門學問了...